承接昨天提到的Kinesis巨量資料傳遞,我們今天繼續延伸巨量資料傳遞後的處理與儲存。
Kinesis用於巨量與即時資料接收與傳遞;EMR(Elastic Map Reduce)用於處理巨量資料的運算;Redshift用於資料倉儲。整合Kinesis、EMR與Redshift這三項服務,有助於建置一套完善的巨量資料串接、資料處理以及資料倉儲的架構。
昨天提到了Kinesis,今天來了解一下Kinesis如何連結EMR和Redshift,依此做資料的處理和儲存。
回顧一下昨天的架構圖,Kinesis接收到流量後,會交由Consumer去處理,這邊的Consumer除了EC2以外,也可以是EMR。EMR本身可以理解為一系列的EC2的叢集,其底層架構設計是Hadoop,用於巨量資料的處理。由於EMR底層是由EC2所組成,當有需要調整系統的設置時,可以透過SSH方式,連線進入EMR。
Redshift是column-based的資料庫,適用於PB等級的結構化資料,進行各樣的分析與查詢。目前提供兩種類型的機器服務: